Inleiding Statistiek

Bennett Kleinberg

Week 2

Week 2

  • Centraliteit van data (central tendency)
  • Spreiding (variabiliteit) van data

Denk terug aan sampling

Sampling

  • steekproeftrekking is het proces waarbij \(n\) waarnemingen worden genomen uit een populatie van grootte \(N\)
  • dit is een van de belangrijkste methoden in de gedrags- en sociale wetenschappen
  • als de steekproeftrekking fout is, is de rest BS
  • GIGO-principe (garbage in, garbage out)
  • meer in week 4
  • voor nu: steekproef = deelverzameling van de populatie

Deel 1: Centrale tendens

  • Doel: wij willen de gegevens beschrijven
  • specifiek: we willen het centrum van de dataverdeling uitdrukken
  • onthoud: denk aan data = verdeling

Voorbeeld data

  • We nemen een steekproef van \(n=100\) van studenten aan TiU
  • En vragen: hoeveel uur per week besteed je aan YouTube?
  • Antwoorden in hele uren
hours_YT
8
11
7
15
11
8

Het histogram

Beschrijvende centrale waardes

De MODUS (Engels: mode):

  • eenvoudige definitie: de score (of categorie) met de hoogste frequentie
  • werkt voor alle schalen van data (denk aan nominale gegevens)

De modus bepalen

We kijken naar de frequentietabel, en kiezen de meest gekozen optie:

hours Freq
10 17
12 16
11 15
8 12
9 9

De modus is “10 uur”.

De locatie van de modus

Modus en distributies

(demo)

Beschrijvende centrale waardes

Het GEMIDDELDE (Engels: mean):

  • exacte definitie: de som van alle scores gedeeld door het aantal scores

Statistische notatie:

\(\mu=\frac{\sum{X}}{N}\) (population mean)

\(M=\frac{\sum{X}}{n}\) (sample mean)

Het gemiddelde berekenen

  • Steekproefgrootte: \(n=5\)
  • Uren YouTube gekeken: \(5,7,9,14,6\)

\(\sum{X} = 5+7+9+14+6 = 41\)

\(M=\frac{\sum{X}}{n} = \frac{41}{5} = 8.20\)

Waar is het in de verdeling?

Modus en gemiddelde

Waarom niet altijd het gemiddelde?

Stel dat er 10 vrienden (a, b, c, … j) in een bar zitten. Elk van hen zegt hoeveel uur ze de afgelopen week op YouTube hebben doorgebracht.

Hier zijn de data:

name hours
a 15
b 6
c 2
d 2
e 4
f 12
g 6
h 15
i 3
j 7

Nu komt er een andere persoon binnen. Deze vriend, “k”, is een binge watcher. Hij zegt dat hij vorige week 50 uur YouTube heeft gekeken.

Wat denk je dat er met het gemiddelde zal gebeuren?

New histogram

Let op outliers

NL: uitschieters

  • Gemiddelde voor: \(M=\frac{\sum{X}}{n} = \frac{72}{10} = 7.20\)
  • Gemiddelde met de binge-watcher: \(M=\frac{\sum{X}}{n} = \frac{122}{11} = 11.09\)

Extreme waarden kunnen het gemiddelde beïnvloeden!

De extreme waarden worden vaak uitschieters genoemd.

Een andere illustratie

Er zitten honderd mensen in een bar. Het gemiddelde inkomen is 30.000 euro. Nu komt Jeff Bezos binnen en plots is iedereen miljardair.

Deze problemen kunnen worden aangepakt:

  • mean trimming (niet in deze cursus)
  • een andere maat

Beschrijvende centrale waardes

De MEDIAAN (Engels: median):

  • vaak het midden genoemd
  • exacte definitie: de mediaan deelt de verdeling in tweeën

Voorbeeld

De vrienden data:

name hours
a 15
b 6
c 2
d 2
e 4
f 12
g 6
h 15
i 3
j 7
k 50

De mediaan bepalen

  1. het sorteren van de data
x
2
2
3
4
6
6
7
12
15
15
50

De mediaan bepalen

  1. Zoek de waarde die in het midden ligt.

Hier: We weten dat we 11 waarden hebben, dus de 6e waarde heeft 5 punten links en rechts ervan.

Gemiddelde en mediaan

Speciale gevallen

Verdelingen zonder “duidelijk” middenpunt:

  • data: \(4,15,13,14,38,3\)
  • gesorteerde data: \(3,4,13,14,15,38\)
  • mediaan?

In dit geval nemen we de twee middelste waarden en berekenen het gemiddelde daarvan:

  • median = \(\frac{13+14}{2}=13.5\)

Deel 2: Variabiliteit

  • Doel: wij willen de data beschrijven
  • specifiek: we willen uitdrukken hoeveel de scores in de data van elkaar verschillen
  • ook wel de spreiding van de data genoemd (of het gebrek daaraan)

Nieuw data voorbeeld

  • Cijfers voor Inleiding Statistiek bij eerste poging voor \(N=10\)
id grade
A K 5
B L 3
C M 6
D N 6
E O 7
F P 8
G Q 6
H R 9
I S 8
J T 10

Hoe kunnen we data variabiliteit uitdrukken?

  • De makkelijkste manier: we nemen de laagste waarde en de hoogste waarde
  • \(\min grade = 3\)
  • \(\max grade = 10\)

\(range = \max - \min\)

Kijk ook op blz. 102 in het boek.

Een beetje meer genuanceerd

  • misschien berekenen we hoeveel elke score verschilt van het (populatie) gemiddelde
  • \(\mu = 6.8\)
id grade dist_to_mean
A K 5 -1.8
B L 3 -3.8
C M 6 -0.8
D N 6 -0.8
E O 7 0.2
F P 8 1.2
G Q 6 -0.8
H R 9 2.2
I S 8 1.2
J T 10 3.2

Wat is problematisch?

Deze procedure geeft ons een afwijkingsscore (Eng. deviation) van het gemiddelde voor elke waarde

\(deviation = X - \mu\)

  • Denk na over wat het gemiddelde eigenlijk is
  • Het is - per definitie - het evenwichtspunt
  • Kijk eens…

Afwijking en het gemiddelde

Afwijkingen opgeteld tot 0

Trucje: Squaring the difference

id grade dist_to_mean sq_dev
A K 5 -1.8 3.24
B L 3 -3.8 14.44
C M 6 -0.8 0.64
D N 6 -0.8 0.64
E O 7 0.2 0.04
F P 8 1.2 1.44
G Q 6 -0.8 0.64
H R 9 2.2 4.84
I S 8 1.2 1.44
J T 10 3.2 10.24

Het \(x^2\) trucje

  • verwijdert negatieve waarden
  • “straft” grotere waarden
  • \(2^2 = 4\)
  • \(4^2 = 16\)
  • Opmerking: verschillen worden ook gekwadrateerd
  • Als we \(x\) verdubbelen, kwadrateren we \(x^2\)

Van afwijking naar variantie

We kunnen nu een meer betekenisvolle maat krijgen.

Het gemiddelde van de gekwadrateerde afwijkingen noemen we de variantie (Eng. variance).

\(var = \frac{\sum{(X-\mu)^2}}{N}\)

Stepwise: afwijking (deviation)

\(\mu = 5.4\)

id grade dev
A K 5 -0.4
B L 3 -2.4
C M 6 0.6
D N 6 0.6
E O 7 1.6

Stepwise: gekwadrateerde afwijking

Squared deviation

id grade dev sq_dev
A K 5 -0.4 0.16
B L 3 -2.4 5.76
C M 6 0.6 0.36
D N 6 0.6 0.36
E O 7 1.6 2.56

\(var = \frac{\sum{(X-\mu)^2}}{N} = \frac{9.2}{5} = 1.84\)

Stepwise: de standaard afwijking

Engels: standard deviation

  • een van de meest gebruikte statistieken voor variabiliteit
  • standaard in de meeste onderzoekspapers

\(SD = \sqrt{var}\)

\(\sigma = \sqrt{\frac{\sum{(X-\mu)^2}}{N}}\)

Hier: \(\sigma = \sqrt{\frac{9.2}{5}} = \sqrt{1.84} = 1.36\)

Sum of squares

  • een alternatieve benadering is om eerst de som van de gekwadrateerde afwijkingen (SS) te berekenen

\(SS = \sum{(X-\mu)^2}\)

Dan:

\(var = \frac{SS}{N}\)

\(\sigma = \sqrt{\frac{SS}{N}}\)

Daarom wordt \(var\) ook genoteerd als \(sigma^2\).

Denk terug aan populaties en steekproeven?

Tot hier: de variabiliteitsstatistieken waren voor de populatie

De steekproef is biased (d.w.z. we over- of onderschatten de populatie-waarde):

  • hier betekent dit dat het de variabiliteit van de populatie onderschat
  • wij kunnen hiervoor corrigeren
  • dit is waar we de som van kwadraten nodig hebben

Bias corrigeren

We maken de waarde iets groter, door de noemer te verkleinen:

\(sample\ variance = \frac{SS}{n-1}\)

\(s = \sqrt{\frac{SS}{n-1}}\)

Vergelijk:

  • \(\frac{SS}{N} = \frac{9.2}{5} = 1.84\) vs \(\frac{SS}{n-1} = \frac{9.2}{4} = 2.30\)
  • \(\sqrt{\frac{9.2}{5}} = 1.36\) vs \(\sqrt{\frac{9.2}{4}} = 1.52\)

Voorbeeld in onderzoekspapers

show that the judgments are closer to the true emotion score in the longer texts (M=1.19, SD=1.88) than in the shorter ones (M=2.00, SD=2.35), Cohen’s d = 0.38 [99% CI: 0.30; 0.45]

Voorbeeld in onderzoekspapers

The temporal evolution of a far‑right forum

Recap

  • we kunnen de centrale waarde van de data beschrijven
    • modus
    • gemiddelde
    • mediaan
  • we kunnen ook beschrijven hoe ver de gegevens uit elkaar liggen
    • range
    • afwijking –> variantie –> standaardafwijking
    • Corrigeren voor steekproefvertekening in steekproefstatistieken

Volgende week

  • waarschijnlijkheid
  • z-scores